import nltk
import pandas as pd
import numpy as np

# If you would like to work with the raw text you can use 'moby_raw'
with open('moby.txt', 'r') as f:
    moby_raw = f.read()
    
# If you would like to work with the novel in nltk.Text format you can use 'text1'
moby_tokens = nltk.word_tokenize(moby_raw)
text1 = nltk.Text(moby_tokens)


def example_one():
    
    return len(nltk.word_tokenize(moby_raw)) # or alternatively len(text1)

example_one()

255028


def example_two():
    
    return len(set(nltk.word_tokenize(moby_raw))) # or alternatively len(set(text1))

example_two()

20742


from nltk.stem import WordNetLemmatizer

def example_three():

    lemmatizer = WordNetLemmatizer()
    lemmatized = [lemmatizer.lemmatize(w,'v') for w in text1]

    return len(set(lemmatized))

example_three()

16887


def answer_one():
    
    diversity = float(len(set(nltk.word_tokenize(moby_raw)))/len(nltk.word_tokenize(moby_raw)))
    return diversity # Your answer here

answer_one()

0.08133224587104161


def answer_two():
    from nltk.book import FreqDist
    token_dict = FreqDist(moby_tokens)
    return (((token_dict['whale'] + token_dict['Whale'])*100)/float(len(nltk.word_tokenize(moby_raw))))
answer_two()

0.41250372508116756


def answer_three():
    from nltk.book import FreqDist
    import operator
    token_dict = FreqDist(moby_tokens)
    sorted_token_dict = sorted(token_dict.items(), key=operator.itemgetter(1))
    lst = sorted_token_dict[-20:]
    lst.reverse()
    return lst

answer_three()

[(',', 19204),
 ('the', 13715),
 ('.', 7306),
 ('of', 6513),
 ('and', 6010),
 ('a', 4545),
 ('to', 4515),
 (';', 4173),
 ('in', 3908),
 ('that', 2978),
 ('his', 2459),
 ('it', 2196),
 ('I', 2113),
 ('!', 1767),
 ('is', 1722),
 ('--', 1713),
 ('with', 1659),
 ('he', 1658),
 ('was', 1639),
 ('as', 1620)]


def answer_four():  
    import nltk
    from nltk.tokenize import word_tokenize
    from nltk.probability import FreqDist
    
    text = word_tokenize(moby_raw)
    dist = FreqDist(text)
    vocab1 = dist.keys()
    
    freqwords = [w for w in vocab1 if len(w) > 5 and dist[w] > 150]
    freqwords.sort()
    return freqwords # Your answer here

answer_four()

['Captain',
 'Pequod',
 'Queequeg',
 'Starbuck',
 'almost',
 'before',
 'himself',
 'little',
 'seemed',
 'should',
 'though',
 'through',
 'whales',
 'without']


def answer_five():
    import nltk
    from nltk.tokenize import word_tokenize
    
    longest_word = None
    max_len = 0
    text1 = word_tokenize(moby_raw)
    for word in text1:
        if len(word) > max_len:
            longest_word = word
            max_len = len(word)
    return (longest_word, len(longest_word))# Your answer here

answer_five()

("twelve-o'clock-at-night", 23)


def answer_six():
    import operator
    from nltk.book import FreqDist
    
    dist = FreqDist(moby_tokens)
    unique_words = {}
    
    for words in dist.keys():
        if words.isalpha() and dist[words] > 2000:
            unique_words[words] = dist[words]
    unique_words = sorted(unique_words.items(), key=operator.itemgetter(1))
    unique_words.reverse()
    result = [(f,w) for w,f in unique_words]
    
    return result # Your answer here

answer_six()

[(13715, 'the'),
 (6513, 'of'),
 (6010, 'and'),
 (4545, 'a'),
 (4515, 'to'),
 (3908, 'in'),
 (2978, 'that'),
 (2459, 'his'),
 (2196, 'it'),
 (2113, 'I')]


def answer_seven():
    
    sen_tokens = nltk.sent_tokenize(moby_raw)
    return len(moby_tokens)/len(sen_tokens) # Your answer here

answer_seven()

25.88591149005278


def answer_eight():
    import collections
    pos_token = nltk.pos_tag(text1)
    pos_counts = collections.Counter((subl[1] for subl in pos_token))
    return pos_counts.most_common(5)

answer_eight()

[('NN', 32727), ('IN', 28662), ('DT', 25879), (',', 19204), ('JJ', 17613)]


from nltk.corpus import words

correct_spellings = words.words()


def answer_nine(entries=['cormulent', 'incendenece', 'validrate']):
    from nltk.metrics.distance import (
    jaccard_distance,
    )
    from nltk.util import ngrams
    spellings_series = pd.Series(correct_spellings)
    correct = []
    for entry in entries :
        spellings = spellings_series[spellings_series.str.startswith(entry[0])]
        distances = ((jaccard_distance(set(ngrams(entry, 3)),set(ngrams(word, 3))), word) for word in spellings)
        closet = min(distances)
        correct.append(closet[1])
        
    return correct
answer_nine()

['corpulent', 'indecence', 'validate']


def answer_ten(entries=['cormulent', 'incendenece', 'validrate']):
    from nltk.metrics.distance import (
    jaccard_distance,
    )
    from nltk.util import ngrams
    spellings_series = pd.Series(correct_spellings)
    correct = []
    for entry in entries :
        spellings = spellings_series[spellings_series.str.startswith(entry[0])]
        distances = ((jaccard_distance(set(ngrams(entry, 4)),set(ngrams(word, 4))), word) for word in spellings)
        closet = min(distances)
        correct.append(closet[1])
        
    return correct
answer_ten()

['cormus', 'incendiary', 'valid']


def answer_eleven(entries=['cormulent', 'incendenece', 'validrate']):
    from nltk.metrics.distance import (
    edit_distance,
    )
    spellings_series = pd.Series(correct_spellings)
    correct = []
    for entry in entries :
        spellings = spellings_series[spellings_series.str.startswith(entry[0])]
        distances = ((edit_distance(entry,word), word) for word in spellings)
        closet = min(distances)
        correct.append(closet[1])
        
    return correct
answer_eleven()

['corpulent', 'intendence', 'validate']

Assignment 2 - Introduction to NLTK¶

Part 1 - Analyzing Moby Dick¶

Example 1¶

Example 2¶

Example 3¶

Question 1¶

Question 2¶

Question 3¶

Question 4¶

Question 5¶

Question 6¶

Question 7¶

Question 8¶

Part 2 - Spelling Recommender¶

Question 9¶

Question 10¶

Question 11¶